Google Cloud anuncia nuevos modelos de IA para la creación de video e imágenes en Vertex AI

4 de diciembre de 20244 de diciembre de 2024 Alberto Marin Google Cloud

Veo para la creación de videos e Imagen 3 para imágenes simplifican el proceso creativo de las empresas generando contenido de alta calidad a partir de simples indicaciones.

Google Cloud anunció la disponibilidad de nuevos modelos de lenguaje para la generación de contenido en video e imagen. Veo, el modelo para generar video a partir de prompts (instrucciones y/o comandos) de texto está disponible en vista previa privada para los clientes de Google Cloud a partir de hoy, e Imagen 3 para crear imágenes en alta calidad lo estará a partir de la semana próxima. Ambos estarán disponibles para los clientes de Google Cloud en Vertex AI, la plataforma que permite implementar y evaluar el rendimiento de modelos de lenguaje de forma simple y personalizada sobre una infraestructura sólida y confiable.

Los modelos de inteligencia artificial generativa ayudan a las organizaciones a generar contenido creativo y de calidad de forma simple y rápida. “Estamos muy entusiasmados de poner Veo e Imagen 3 a disposición de nuestros clientes”, expresa Marcel Silva, jefe de ventas de Inteligencia Artificial para América Latina de Google Cloud. “Creemos que estos modelos tienen el potencial de revolucionar la forma en que las empresas crean y utilizan el contenido de video e imagen. Con Veo e Imagen 3, las organizaciones pueden generar videos e imágenes de alta calidad de forma rápida y sencilla, sin necesidad de tener experiencia en producción de video o imágenes”.

Veo. Desarrollado por Google DeepMind, genera videos en alta calidad y en alta definición basados en prompts (indicaciones) de texto o imagen en un amplio rango de estilos cinemáticos y visuales a una velocidad excepcionalmente alta. Con una comprensión avanzada de lenguaje natural y de semántica visual, genera video que se ajusta de manera precisa a lo solicitado. Crea material que es consistente y coherente y logra que personas, animales y objetos se muevan de forma realista entre las tomas. A continuación algunos ejemplos de las creaciones de Veo con sus respectivos prompts.

Imagen a video: Veo genera videos de imágenes preexistentes o generadas por IA utilizando Imagen 3 (las primeras dos imágenes arriba) e imágenes del mundo real (las dos de abajo) para crear videoclips cortos.

Texto a video: A continuación ejemplos de cómo Veo utiliza texto para elaborar videoclips cortos.

Imagen 3. El modelo más avanzado que convierte texto a imagen genera imágenes a partir de prompts simples con un alto nivel de detalle. Puede producir imágenes fotorrealistas y realistas, con menos objetos de distracción que los modelos anteriores. Estará disponible para todos los clientes de Google Cloud a partir de la semana próxima en Vertex AI. A continuación, algunos ejemplos:

Edición. Ofrece potentes opciones para perfeccionar y adaptar cualquier imagen. permite editar fotos completas con un simple mensaje de texto, o bien editar sólo partes de una imagen, incluido el cambio de fondo en fotos de productos, o aumentar la escala de la imagen para cumplir los requisitos de tamaño.

Personalización. Mayor precisión al guiar al modelo de lenguaje para generar imágenes con las características deseadas. Así es posible representar su propia marca, estilo, logo, tema o características del producto al generar nuevas imágenes. Esto abre nuevas posibilidades creativas, ya que acelera el desarrollo al aumentar el proceso de comercialización de activos publicitarios y de marketing.

Crear con seguridad

Veo e Imagen 3 en Vertex AI han sido diseñados de forma responsable y alineados con los principios de IA de Google e incluyendo sólidas prácticas de seguridad como:

Marca de agua digital. SynthID incrusta marcas de agua invisibles en cada imagen y fotograma que Imagen 3 y Veo producen ayudando a disminuir la desinformación.
Filtros de seguridad. Veo e Imagen 3 cuentan con filtros integrados para reforzar la protección contra la creación de contenido dañino.
Gobierno de datos y controles de privacidad: Los datos de los clientes no son utilizados para entrenar modelos, de acuerdo con los controles de gobernanza de datos y privacidad incorporados de Google Cloud.

Entradas relacionadas